2025/12 12

[AI/ML]APRIORI

Apriori 알고리즘은 연관 규칙 학습(Association Rule Learning)에서 가장 대표적인 알고리즘으로, 데이터 안에 숨어 있는 항목(item) 간의 연관 관계를 찾아내는 기법임. 주로 장바구니 분석(Market Basket Analysis)에서 활용됨.1. 정의“어떤 상품을 산 사람은 다른 상품도 살 가능성이 크다” 같은 패턴을 찾는 알고리즘빈발항목집합(Frequent Itemset)을 찾아내고, 그로부터 연관 규칙을 생성Bottom-up 방식: 작은 집합에서 시작 → 점차 큰 집합으로 확장2. 원리Apriori의 핵심 아이디어 = “부분 집합이 빈발하지 않으면, 그 집합을 포함하는 상위 집합도 빈발하지 않음”최소 지지도(minimum support) 이상인 1-항목집합 찾기이를 바탕으..

AI·ML/머신러닝 2025.12.31

[AI/ML]Bag of words

Bag of Words(BoW)는 문서에서 단어의 등장 여부나 빈도를 단순히 세어 벡터로 표현하는 텍스트 표현 기법임. "순서"는 무시하고, "무엇이 얼마나 등장했는가"만 본다는 게 핵심1. 정의문장을 단어의 집합(bag)으로 보고, 각 단어가 몇 번 등장했는지를 기록문맥, 순서는 고려하지 않음 → 단어의 빈도(frequency) 정보만 반영예:문장1: "빅데이터 분석 공부"문장2: "데이터 분석 재미있다"→ 단어 사전(Vocabulary): {빅데이터, 분석, 공부, 데이터, 재미있다}문장1 → [1, 1, 1, 0, 0]문장2 → [0, 1, 0, 1, 1]2. 특징장점: 단순하고 빠름, 머신러닝 입력으로 사용하기 쉬움단점: 단어 순서·의미·문맥 정보 손실 → “나는 밥을 먹는다”와 “밥을 나는 먹는..

AI·ML/NLP 2025.12.27

[개인정보보호법]이동형 영상정보처리기기

1. 이동형 영상정보처리기기 운영 제한 (촬영 가능 요건)[법 제25조의2 제1항, 제2항 / 시행령 제27조]업무 목적으로 이동형 기기를 운영할 때, 장소의 성격(공개된 장소 vs 사생활 침해 장소)에 따라 촬영 허용 기준이 다릅니다. 장소 구분 원칙 예외적 허용 사유 (촬영 가능 요건) 공개된 장소 촬영 금지 다음 중 하나에 해당하는 경우 촬영 가능1. 법 제15조 제1항 각 호(동의, 법률 규정 등)에 해당할 때2. 촬영 사실을 명확히 표시하여 알렸음에도 거부 의사를 밝히지 않은 경우(단, 권리 부당 침해 우려 없고 합리적 범위 내 한정)3. 그 밖에 제1호·2호에 준하는 경우로서 대통령령으로 정하는 경우 ..

[AI/ML]N-gram

N-gram은 문장에서 연속된 N개의 단어(또는 글자)를 하나의 묶음(토큰)으로 보는 언어 모델링 기법임. 자연어 처리(NLP)에서 텍스트를 단순하면서도 효과적으로 다루는 방법 중 하나1. 정의문장을 단어(Word) 또는 문자(Character) 단위로 잘라 연속된 N개 단위를 추출N=1 → Unigram, N=2 → Bigram, N=3 → Trigram …2. 원리 문장에서 "오늘 날씨가 정말 좋다"라는 문장이 있을 때: Unigram (1-gram): {오늘}, {날씨가}, {정말}, {좋다} Bigram (2-gram): {오늘 날씨가}, {날씨가 정말}, {정말 좋다} Trigram (3-gram): {오늘 날씨가 정말}, {날씨가 정말 좋다} 즉, 문맥을 N개 단..

AI·ML/NLP 2025.12.22

[개인정보보호법]고정형 영상정보처리기기

1. 설치 및 운영 제한 (장소별 기준)법 제25조 제1항~제2항, 시행령 제22조 구분 원칙 예외적 설치 허용 사유 (암기 필수) 공개된 장소 설치ㆍ운영 금지 1. 법령에서 구체적으로 허용2. 범죄의 예방 및 수사3. 시설의 안전 및 관리, 화재 예방4. 교통단속5. 교통정보의 수집ㆍ분석 및 제공6. 촬영된 영상정보를 저장하지 않는 경우 (대통령령) └ 출입자 수, 성별, 연령대 등 통계값/통계적 특성값 산출을 위해 일시적 처리 └ 그 밖에 준하는 경우로서 보호위원회 심의ㆍ의결을 거친 경우 민감 장소(비공개) 설치ㆍ운영 금지(내부를 볼 수있도록 설치 X) [대상 장소]목욕실, 화장실, 발한실..

[AI/ML]POS-tagging

POS-tagging(Part-Of-Speech tagging, 품사 태깅)은 문장 속 각 단어의 품사(명사, 동사, 형용사 등)를 자동으로 식별하고 부착하는 작업임. 자연어 처리(NLP)에서 아주 기본이 되는 단계1. 정의입력: 문장 (예: "나는 밥을 먹는다")출력: 각 단어에 품사 태그 부여나/대명사(NP), 는/조사(JX), 밥/명사(NN), 을/조사(JKO), 먹는다/동사(VV+EF)즉, 문장을 형태소 단위로 잘라서 "이 단어는 어떤 역할을 하는가?"를 태그로 표시하는 것2. 동작 방식사전 기반: 단어 사전과 규칙에 따라 품사 부여통계 기반: HMM(Hidden Markov Model) 같은 확률 모델로 문맥 고려딥러닝 기반: RNN, LSTM, BERT 같은 신경망으로 품사 예측3. 비유비유로..

AI·ML/NLP 2025.12.17

[개인정보보호법]개인정보 간접수집

1. 통지 의무의 두 가지 유형 (요구 시 vs 알아서)법 제20조는 크게 두 가지 상황을 규정합니다. 정보주체가 "나에 대해 어디서 가져왔어?"라고 물어볼 때(제1항)와, 규모가 커서 알아서 알려줘야 할 때(제2항)입니다. 구분 ① 요구에 의한 통지 (일반) ② 의무적 통지 (특례) 적용 대상 모든 개인정보처리자 대통령령 기준 해당 개인정보처리자 (대규모) 통지 시점 정보주체의 요구가 있는 경우 즉시 (3일 이내) 수집(제공받은) 후 3개월 이내 성격 수동적 대응 (요청 시 답변) 능동적 대응 (알아서 통지) 근거 법령 법 제20조..

[AI/ML]TF-IDF

1. 정의 TF (Term Frequency, 단어 빈도) 한 문서 안에서 특정 단어가 얼마나 자주 나오는가 예: “빅데이터 시험 준비” 문장에서 “시험”이 2번 나오면 TF=2 IDF (Inverse Document Frequency, 역문서 빈도) 그 단어가 전체 문서 집합에서 얼마나 희귀한가 흔한 단어일수록 중요도가 낮아지고, 드문 단어일수록 중요도가 올라감 예: “빅데이터”는 희귀 → IDF ↑, “그리고”는 흔함 → IDF ↓ TF-IDF = TF × IDF 문서 내에서 자주 나오고, 다른 문서에는 잘 안 나오는 단어일수록 가중치 ↑ N = 전체 문서 수df(t) = 단어 t가 등장한 문서 수3. 비유비유로 생각하면:“시..

AI·ML/NLP 2025.12.15

[정보통신망법]영리목적의 광고

1. 광고성 정보 전송의 기본 원칙 (제50조 제1항~제3항)원칙은 Opt-in(사전 동의) 방식이나, 예외적으로 Opt-out이 허용되는 경우와 야간 전송 규정을 구분하는 것이 핵심 구분 내용 비고 (시험 포인트) 기본 원칙 명시적인 사전 동의를 받아야 전송 가능 Opt-in 방식 사전동의 예외(Opt-out 허용) 1. 기존 거래 관계: 거래 종료 후 6개월 이내, 동종 재화 정보 전송 시2. 전화권유판매: 육성으로 수집 출처를 고지한 경우 6개월 숫자 기억수신거부 시 즉시 중단 야간 전송 제한 시간: 오후 9시 ~ 다음 날 오전 8시조건: 별도의 사전 동의 필수 ..

[개인정보보호법]개인정보 유출 손해배상책임 제도

손해배상책임 보장제도 ○ 적용대상 다음 각 호의 요건을 모두 갖춘 개인정보처리자 1. 직전 사업연도의 매출액이 10억원 이상일 것 2. 전년도 말 기준 직전 3개월간 그 개인정보가 저장ㆍ관리되고 있는 정보주체 수가 일일평균 1만명 이상일 것 ◈ (온·오프라인 사업 병행 시 정보 주체 수) 오프라인 사업(매장)과 온라인 서비스를 운영하는 경우의 ‘정보주체 수’ 산정은 개인정보를 수집한 경로가 온·오프라인 여부와는 무관 하며, 사업자가 저장하고 있는 정보 주체 수 전부가 포함 ◈ (회원·비회원·탈퇴회원·휴면회원) ‘정보주체 수’와 ‘회원 수’는 일치하는 개념은 아니며, 회원·비회원·탈퇴회원·휴면회원 여부와는 관계없이 개인정보처리자가 업무처리를 목적 으로 저장·관리하고 있는 개..